分析性能

在以下情况下，我们讨论过的所有 TD 控制算法（Sarsa、Sarsamax、预期 Sarsa）都会收敛于最优动作值函数 q_（并生成最优策略 \pi_）：(1)\epsilon 的值根据 GLIE 条件逐渐降低，以及 (2) 步长参数 \alpha 足够小。

这些算法之间的区别总结如下：

如果你要了解详情，建议阅读该教科书（尤其是第 6.4-6.6 部分）的第 6 章节。

为了加深理解，你可以选择练习重现图 6.4（注意，这道练习是可选练习！）

该图显示了 Sarsa 和 Q 学习在悬崖行走环境中的效果，常量 \epsilon = 0.1。正如在教科书中所描述的，在这种情况下，

你应该通过对现有代码稍加修改，就能够重现该图。